隐式3D表示的最新进展,即神经辐射场(NERFS),以可区分的方式使准确且具有逼真的3D重建成为可能。这种新的表示可以有效地以一种紧凑的格式传达数百个高分辨率图像的信息,并允许对新观点的逼真综合。在这项工作中,使用NERF的变体称为全体氧,我们为感知任务创建了第一个大规模隐式表示数据集,称为Fustection,该数据集由两个部分组成,这些部分既包含以对象为中心和场景为中心的扫描,用于分类和分段, 。它显示了原始数据集的显着内存压缩率(96.4 \%),同时以统一形式包含2D和3D信息。我们构建了直接作为输入这种隐式格式的分类和分割模型,并提出了一种新颖的增强技术,以避免在图像的背景上过度拟合。代码和数据可在https://postech-cvlab.github.io/perfception中公开获得。
translated by 谷歌翻译
尽管机器学习在视觉对象跟踪的任务上进行了广泛采用,但最近基于学习的方法在很大程度上忽略了一个事实,即视觉跟踪是其本质上的序列级任务。他们在很大程度上依赖框架级训练,这不可避免地会导致数据分布和任务目标的培训和测试之间的不一致。这项工作介绍了基于强化学习的视觉跟踪序列训练策略,并讨论了数据采样,学习目标和数据增强的序列级设计如何提高跟踪算法的准确性和稳健性。我们对包括LASOT,TrackingNet和GoT-10K在内的标准基准测试的实验表明,四个代表性跟踪模型,SiamRPN ++,Siamattn,Transt和TRDIMP,通过在不修改建筑架构的情况下将提出的方法纳入训练中,从而不断改进。
translated by 谷歌翻译
我们为机器人素描剂提供了一个自动学习框架,该框架能够同时学习基于中风的渲染和运动控制。我们将机器人的草图问题提出为深度分离的分层增强学习;独立学习了基于中风的渲染和电动机控制的两种政策,以实现绘画的子任务,并在合作进行现实世界绘图时形成层次结构。没有手工制作的特征,绘制序列或轨迹以及逆运动学,该方法将从刮擦上训练机器人素描剂。我们用带有2F抓手的6多机器人臂进行了实验,以素描涂鸦。我们的实验结果表明,这两个策略成功地学习了子任务并合作绘制目标图像。此外,通过不同的绘图工具和表面来检查鲁棒性和灵活性。
translated by 谷歌翻译
婴儿生命的最初几年被称为关键时期,在此期间,由于神经可塑性,学习绩效的总体发展受到显着影响。在最近的研究中,具有深层神经网络模仿实际神经元的深层神经网络的AI药物表现出与人类关键时期类似的学习期。特别是在此初期,适当的刺激在发展学习能力中起着至关重要的作用。但是,将人类的认知偏见转变为适当的塑造奖励是非常具有挑战性的,并且在关键时期的先前工作并不集中于寻找适当的刺激。为了进一步迈出一步,我们建议多阶段的增强学习强调在关键时期发现``适当的刺激''。受到人类早期认知发展阶段的启发,我们在关键时期附近使用多阶段的指导,并证明就AI代理的性能,效率和稳定性而言,适当的成型奖励(2阶段指导)。
translated by 谷歌翻译
我们研究学习特征姿势的问题,即比例和方向,以构成感兴趣的图像区域。尽管它显然很简单,但问题是不平凡的。很难获得具有模型直接从中学习的明确姿势注释的大规模图像区域。为了解决这个问题,我们通过直方图对准技术提出了一个自制的学习框架。它通过随机重新缩放/旋转来生成成对的图像贴片,然后训练估计器以预测其比例/方向值,从而使其相对差异与所使用的重新分组/旋转一致。估算器学会了预测规模/方向的非参数直方图分布,而无需任何监督。实验表明,它在规模/方向估计中显着优于先前的方法,还可以通过将我们的斑块姿势纳入匹配过程中来改善图像匹配和6个DOF相机姿势估计。
translated by 谷歌翻译
尽管自回归模型在图像生成上取得了令人鼓舞的结果,但它们的单向生成过程阻止了所得图像完全反映全球环境。为了解决这个问题,我们提出了一个有效的图像生成框架,该框架与上下文RQ-Transformer的草稿和革命框架在生成过程中考虑了全局上下文。作为广义的VQ-VAE,RQ-VAE首先将高分辨率图像表示为一系列离散代码堆栈。序列中的代码堆栈被随机掩盖后,对上下文RQ转换器进行了训练,以根据图像的未掩盖上下文来填充蒙版的代码堆栈。然后,上下文的RQ-Transformer使用我们的两阶段解码,草稿和重新观察并生成图像,同时在生成过程中利用图像的全局上下文。具体来说。在草稿阶段,尽管质量相当低,但我们的模型首先着重于产生多样化的图像。然后,在修订阶段,模型迭代地改善了图像的质量,同时保留了生成图像的全局环境。在实验中,我们的方法在条件图像生成上实现了最新的结果。我们还验证了,通过有效控制图像生成中质量多样性权衡的质量多样性权衡,草稿进行解码可以实现高性能。
translated by 谷歌翻译
将零件组装成对象是一个组合问题,在现实世界中的各种情况下都会出现,并且涉及科学和工程学中的许多应用。以前的相关工作可以解决限制案例,其单位零件或拼图形状的部分相同,这大大减轻了问题的组合挑战。在这项工作中,我们介绍了形状组装的更具挑战性的问题,该问题涉及具有模糊连接的任意形状的无纹理碎片,然后提出了一种基于学习的方法来解决它。我们证明了具有各种情况的形状组装任务的有效性,包括具有异常片段(例如缺失和扭曲),不同数量的片段和不同旋转离散化的情况。
translated by 谷歌翻译
MINSU(移动库存和扫描单元)算法使用计算视觉分析方法记录机柜的剩余数量/填充度。为此,它通过了五步方法:对象检测,前景减法,K-均值聚类,百分比估计和计数。输入图像通过对象检测方法,以分析机柜在坐标方面的特定位置。这样做之后,它会通过前景减法方法来使图像通过删除背景更加焦点到机柜本身(某些手动工作可能必须完成,例如选择不被算法切割的零件) 。在K-均值聚类方法中,多色图像变成了3彩色单调图像,以更快,更准确的分析。最后,图像经过百分比估计和计数。在这两种方法中,发现机柜内部的材料的比例以百分比为百分比,然后用来近似内部的材料数量。如果该项目成功,剩余数量管理可以解决简介早期解决的问题。
translated by 谷歌翻译
标签预测上的一致性正则化成为半监督学习中的一项基本技术,但是它仍然需要大量的训练迭代以进行高性能。在这项研究中,我们分析了一致性正则化限制了由于在模型更新中排除具有不受欢迎的伪标记的样品,因此标记信息的传播限制了。然后,我们提出对比度正则化,以提高未标记数据的群集特征一致性正则化的效率和准确性。在特定的情况下,在通过其伪标签将强大的增强样品分配给群集后,我们的对比度正规化更新了模型,以便具有自信的伪标签的功能在同一集群中汇总了功能,同时将功能推迟了不同的群集中的功能。结果,在培训中,可以有效地将自信的伪标签的信息有效地传播到更无标记的样品中。在半监督学习任务的基准上,我们的对比正则化改善了以前的基于一致性的方法,并取得了最新的结果,尤其是在培训次数较少的情况下。我们的方法还显示了在开放式半监督学习中的稳健性能,其中未标记的数据包括分发样本。
translated by 谷歌翻译
关键时期是阶段,其中幼儿的大脑在喷射中发展。为促进儿童认知发展,在本阶段至关重要。然而,目前尚不清楚是否存在对AI代理商的培训也存在这种关键时期。与人类幼儿相似,顺序引导和多模式相互作用可能显着提高AI代理的培训效率。为了验证这一假设,我们将此概念调整到AI代理商中学习的关键时期,并调查AI代理人的虚拟环境中的关键时期。我们在加固学习(RL)框架中正规化关键时期和幼儿指导学习。然后,我们建立了一个像veca工具包的幼儿环境,以模仿人类托儿的学习特征。我们研究三个离散的相互互动水平:弱导兵指导(稀疏奖励),中等导师指导(助手奖励)和导师演示(行为克隆)。我们还介绍了由30,000个现实世界图像组成的EAVE数据集,以完全反映幼儿的观点。我们从两个角度评估关键时期对AI代理商的影响:如何以及何时在统一和多式化学习中最佳。我们的实验结果表明,Uni-和多式联运剂,具有中等导师的指导和100万和200万次训练步骤的关键期显示出明显的改进。我们通过在EAVE数据集上传输学习来验证这些结果,并在同一关键时期和指导下找到性能进步。
translated by 谷歌翻译